SuperGLUE ist ein Benchmark zur Evaluierung des Sprachverständnisses und der NLU-Fähigkeiten (Natural Language Understanding) von KI-Sprachmodellen. Das Verständnis natürlicher Sprache wird mit Aufgaben aus insgesamt aus acht verschiedenen Kategorien getestet und beurteilt. SuperGLUE ist der Nachfolger des GLUE-Benchmarks. Für die Sprachmodelle ist SuperGLUE schwieriger zu lösen. Die Ergebnisse lassen sich über ein Online-Leaderboard veröffentlichen und vergleichen.
Das Kürzel „GLUE“ in SuperGLUE steht für „General Language Understanding Evaluation“. Bei SuperGLUE handelt es sich um ein Multitask-Benchmarking zur Bewertung, Analyse und zum Vergleich des Verständnisses natürlicher Sprache von KI-Sprachmodellen. Es werden die NLU-Fähigkeiten (Natural Language Understanding) der Sprachmodelle getestet und mit einem Ergebnisscore versehen.
Das erklärte Ziel von SuperGLUE ist es, die Leistung von NLU-Sprachmodellen vergleichbar zu machen und deren Entwicklung weiter voranzubringen. SuperGLUE ist der Nachfolger des GLUE-Benchmarks und für Sprachmodelle schwieriger zu lösen. Durch die fortschreitende Entwicklung der Künstlichen Intelligenz übertrafen Sprachmodelle schon bald nach Veröffentlichung von GLUE die durchschnittliche menschliche Leistung im Test. Bei der Veröffentlichung von SuperGLUE im Jahr 2019 lagen damals aktuelle Sprachmodelle deutlich unter den menschlichen Ergebnissen. Heute gilt auch SuperGLUE von mehreren Sprachmodellen als gelöst. Die menschliche Leistung im Benchmark wird von diesen Modellen deutlich übertroffen.
Der SuperGLUE-Benchmark besteht aus NLU-Aufgaben aus insgesamt acht verschiedenen Kategorien zum Verständnis natürlichsprachiger Texte. Durch den Multitask-Charakter des Benchmarks ist SuperGLUE nicht auf bestimmte Textverständnisaufgaben beschränkt und lässt sich prinzipiell zur Evaluierung beliebiger Sprachmodelle mit unterschiedlicher Architektur einsetzen. Die Ergebnisse können über ein Online-Leaderboard veröffentlicht und verglichen werden. Entwickelt wurde Super GLUE von Wissenschaftlern der New York University, der University of Washington und der Unternehmen DeepMind und Meta.
Motivation für die Entwicklung von SuperGLUE
Aufgrund seines erworbenen Wissens, seiner Erfahrungen und der Fähigkeit logisch zu schlussfolgern, hat der Mensch ein allgemeines, flexibles und intuitives Verständnis natürlicher Sprache. Sprachmodelle mit Künstlicher Intelligenz hingegen sind meist auf einzelne Aufgaben des Textverständnisses und Teilbereiche der Verarbeitung natürlicher Sprache (Natural Language Processing) spezialisiert. Bei bestimmten Sprachverständnisaufgaben erzielen sie beeindruckende Ergebnisse, bei einfachen Aufgaben außerhalb ihres vorgesehenen Einsatzbereichs versagen sie aber häufig kläglich.
Damit Sprachmodelle mit menschlichem Sprachverständnis vergleichbare Leistungen erzielen, ist es erforderlich, dass sie Sprach- und Textverständnisaufgaben aus vielen verschiedenen Bereichen lösen. Die Sprachmodelle dürfen bezüglich der eingesetzten Algorithmen und Architekturen nicht so gestaltet sein, dass sie sich nur für die Lösung von Aufgaben aus einzelnen Bereichen eignen. Ziel der Entwickler von SuperGLUE und des Vorgängers GLUE war es, eine Benchmarking-Möglichkeit bereitzustellen, die es erlaubt, die Leistung von Sprachmodellen in verschiedenen Sprachverständnisbereichen zu beurteilen und vergleichbar zu machen. Letztendlich soll das Benchmarking die Entwicklung leistungsfähiger Sprachmodelle vorbringen.
SuperGLUE und GLUE sind modellunabhängig für Sprachmodelle unterschiedlicher Architektur einsetzbar. Da mit GLUE evaluierte Sprachmodelle schon bald nach Veröffentlichung des Benchmarks die menschliche Leistung übertrafen, entwickelten die Macher von GLUE mit SuperGLUE ein deutlich schwieriger zu lösendes Benchmarking.
Unterschiede zwischen SuperGLUE und GLUE
SuperGLUE orientiert sich grundsätzlich am Design von GLUE, unterscheidet sich aber in folgenden Punkten vom Vorgänger-Benchmark:
schwieriger zu lösende NLU-Aufgaben
verschiedenartigere Aufgabenformate wie Koreferenzauflösung und Fragebeantwortung (Question Answering – QA)
umfassende Baseline menschlicher Leistung für alle Benchmark-Tasks
ausgestattet mit neuem, modularem Toolkit für die Arbeit beim Pretraining und Multitask- und Transfer-Learning
neues, öffentlich zugängliches Online-Leaderboard für die Benchmark-Ergebnisse mit überarbeiteten, faireren Benutzungsregeln
Inhalt und Tasks von SuperGLUE
Die benötigten Daten für das Benchmarking sind inklusive Software-Toolkit auf der SuperGLUE-Website verfügbar. SuperGLUE besteht aus Sprachverständnisaufgaben aus acht verschiedenen Bereichen in englischer Sprache. Es müssen beispielsweise Fragen zu Wikipedia-Texten beantwortet oder der richtige Kontext mehrdeutiger Wörter bestimmt werden. Im Detail handelt es sich um diese acht Tasks:
5. ReCoRD (Reading Comprehension with Commonsense Reasoning Dataset)
6. RTE (Recognizing Textual Entailment)
7. WiC (Word-in-Context)
8. WSC (Winograd Schema Challenge)
Neben diesen acht Tasks enthält SuperGLUE zwei Diagnosedatensätze. Sie sind als Analysetool für die Fehlerauswertung, den qualitativen Modellvergleich, die Entwicklung kontroverser Beispiele und die Untersuchung des Modell-Bias einsetzbar.
Modellevaluierung mit SuperGLUE und Ergebnisse
Für die Evaluierung eines Sprachmodells mit SuperGLUE müssen alle acht Tasks entsprechend der bereitgestellten Datensätze und Ressourcen ausgeführt werden. Bei jedem Task erzielt das Sprachmodell eine bestimmte Ergebnispunktzahl in Prozent. Der Durchschnitt aller Prozentzahlen der Tasks bildet das Gesamtergebnis des Sprachmodells im SuperGLUE-Benchmark. Die menschliche Leistung im Benchmark (SuperGLUE Human Baseline) liegt bei 89,8 Prozent. Direkt nach der Veröffentlichung von SuperGLUE lagen die damals besten Sprachmodelle rund 20 Prozent unter der menschlichen Leistung. 2021 haben KI-Sprachmodell die menschliche Leistung im SuperGLUE-Benchmark erstmals übertroffen. Mittlerweile erzielen zahlreiche Modelle Ergebnisprozentzahlen von über 90 Prozent.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Das bekannte Sprachmodell GPT-3 von OpenAI schaffte es übrigens nicht in die Bestenliste des Benchmarks. GPT-3 erzielt zwar sehr gute Ergebnisse beim Generieren von Text und bei einfachen Wissensfragen, löst aber viele Tasks des SuperGLUE-Benchmarks nur mit relativ niedrigen Ergebnisprozentzahlen.